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摘要 : [目的 /意义 ] 改善 现 有 LDA 专利 技术 主题 分 析 存 在 的 辨识 度 低 、 可 解释 性 弱 和 界限 划分 模糊 问题 ， 
对 于 把 握 技 术 热 点 、 追 踪 技 术 前 沿 具 有 重要 意义 。[ 方 法 /过 程 ] 将 国际 分 类 号 IPC 引入 LDA 专利 主题 分 析 中 ， 
将 其 作为 技术 词 的 语 境 , 以 < 词 / 词 组 ,分 类 号 > 二 元 组 的 WI( Word IPC) 结构 进行 训练 ,构建 WILDA 模型 , 实 
现 对 专利 文献 主题 的 识别 和 分 析 。[ 结果 /结论 ] 通过 中 国 石墨 燃 领 域 的 实证 研究 及 与 传统 LDA 模型 的 对 比 研 
究 证 明 ,WI-LDA 模型 泛 化 能 力 较 强 ,在 专利 技术 主题 分 析 上 能 有 效 降低 主题 的 辨识 难度 ,增加 主题 的 可 解释 


性 ,使 文本 主题 划分 更 加 清晰 。 
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石墨 烯 


SS 专利 技术 主题 作为 专利 文献 揭露 技术 内 容 的 主题 
和 移 心 ,具有 高 度 的 代表 性 和 概括 性 ,对 其 进行 挖掘 
分 析 可 以 为 相关 人 员 了 解 技术 领域 研究 内 容 、 把 握 技 
术 欧 展 机 会 .进行 有 效 技术 创新 ,构筑 竞争 优势 以 及 决 
策 研发 提供 科学 支持 。 目 前 已 有 较 多 利用 文本 挖掘 技 
术 租 行 专利 技术 主题 分 析 的 研究 成 果 , 其 中 以 D. M. 
BI 人 @ 竺 "提出 的 LDA (Latent Dirichlet Allocation ) 模型 
尤 汽 突出 。 较 有 代表 性 的 : 廖 列 法 等 ”在 LDA 建 模 的 
基础 上 ,引入 IPC 分 类 号 度量 技术 主题 强度 ,实现 了 主 
题 受 度 .主题 内 容 和 技术 主题 强度 3 个 方面 的 演化 研 
究 。G. J Kim 等 使 用 kmeans 方法 对 文档 聚 类 后 的 
每 一 个 聚 簇 进行 LDA 主题 抽取 用 以 描述 该 聚 艇 所 涉 
及 的 主要 技术 。B. Wang 等 ”利用 改进 的 LDA 模型 ， 
通过 分 析 主 题 内 容 , 揭 示 了 电信 技术 LTE 企业 的 技术 
研究 热点 与 竞争 地 位 。 吴 菲菲 等 ”基于 AToT 模型 将 
技术 主题 专利 权 人 与 时 间 进 行 了 三 维 关联 ,分 析 企业 
技术 主题 的 多 维 动态 变化 。 陈 亮 等 "采用 hLDA 模型 
从 专利 语料库 中 抽取 层次 主题 以 描述 隐藏 在 专利 文本 
中 的 技术 结构 ,并 基于 层次 模型 揭示 了 主题 随时 间 变 
化 的 情况 。 综 上 可 知 ,专利 技术 主题 分 析 中 应 用 的 主 


题 模型 主要 分 为 两 类 ,一 类 是 将 传统 的 LDA 模型 直接 
应 用 于 专利 文献 构成 的 语 料 上 , 另 一 类 是 根据 分 析 目 
的 或 专利 信息 的 结构 特征 对 LDA 模型 进行 改进 或 拓 
展 。 随 着 LDA 模型 在 专利 主题 分 析 中 的 研究 越 来 越 
深入 ,LDA 模型 的 改进 或 拓展 逐渐 成 为 研究 重点 ,主要 
包括 以 下 5 类 :@ 整 合 时 间 信息 ,如 按时 间 区 间 建 模 的 
动态 主题 模型 DTM" 、 对 共 现 词 和 文档 时 间 惟 共 同 建 
模 的 连续 时 间 模 型 TOT ”等 ;@ 整 合 文档 元 数据 ,如 对 
专利 知识 主体 和 客体 联合 建 模 的 LDA 机 构 - 主题 模 
型 5 .综合 专利 文本 和 发 明 人 以 及 专利 权 人 3 类 信息 
的 ICT 模型 ""” 等 ;@ 考 虑 复杂 语义 ,如 考虑 单词 词 序 
的 二 元 语法 主题 模型 BGTM'™ 1 .以 词组 建 模 的 N 元 主 
题 模型 TNG' 等 ;@ 考 虑 词汇 语 境 ,如 以 SAO 结构 为 
基本 单元 ,从 主客 体 之 间 的 关系 上 进行 主题 模型 改善 
的 LDA 模型 ” ;@ 融 入 文本 分 类 号 ,如 结合 文本 标 引 
言 息 , 以 专利 分 类 体系 为 预定 义 技术 主题 集合 的 
SSHLDA 模型 "和 、 Patent Classification LDA'” 等 。 然 而 
就 专利 信息 自身 特点 和 主题 模型 的 结合 程度 而 言 ,无 
论 是 传统 的 LDA 模型 还 是 拓展 的 LDA 模型 ,在 进行 专 
利 技术 主题 分 析 时 仍 存在 一 定 缺 陷 : 

主题 模型 Q) - @ 训 练 的 语 料 都 是 一 个 个 独立 的 
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词 / 词 组 ,忽略 了 其 出 现 的 语 境 ,容易 将 不 同文 本 中 的 
同一 关键 词 等 同 看 待 ,从 而 出 现 同化 主题 描述 5 ,加 
剧 了 主题 辨识 的 难度 ,主题 辨识 度 低 。 且 单纯 的 词 / 记 
组 所 包含 的 语义 信息 有 限 ,表征 能 力 不 足 ,难以 清晰 表 
达 出 主题 的 概念 和 深度 ,即使 增加 描述 主题 词 数量 ,但 
在 没有 可 理解 的 主题 情境 中 ,研究 者 仍 无 法 根据 主题 
分 布下 一 个 个 分 离 的 词 /词组 准确 解释 其 主题 信息 , 特 
别 是 在 主题 方向 不 明确 ,存在 歧义 的 情况 下 ,难以 对 了 
类 的 主题 词 进行 归纳 和 总 结 ,结果 解释 中 主观 猜测 成 
分 较 多 。 再 者 文本 主题 划分 不 清晰 ,尤其 是 一 项 专利 
涉及 多 个 主题 ,各 主题 分 布 比例 非常 接近 ,强制 划分 可 
能 会 造成 文档 不 属于 任何 主题 或 隶属 于 大 部 分 主题 的 
情况 ,与 实际 情况 不 符 。 

二 主题 模型 @ 将 传统 LDA 模型 中 的 名 词性 词 /词组 


2 WI-LDA 主题 模型 


WI-LDA 通过 引入 IPC 作为 语料库 中 词 /词组 所 处 
语 境 , 即 WI 词汇 为 语 料 集训 练 的 基本 单元 词汇 ,以 贝 
叶 斯 概率 模型 ,通过 无 监督 学 习 来 发 现 专利 文本 中 隐 
含 的 Topic 结构 。 其 中 , WI 词汇 是 指 结合 词 /词组 
Word 及 其 分 布 的 文本 技术 语 境 IPC 形成 的 二 元 组 基 
本 结构 ,WI-LDA 模型 以 该 结构 词汇 进行 主题 识别 , 依 
据 的 是 专利 文本 作为 描述 技术 方案 的 文献 ,文献 中 的 
每 个 技术 词 都 分 布 在 独立 的 技术 环境 中 ,而 IPC 所 体 
现 的 技术 和 功能 为 每 个 词 / 词 组 提供 了 所 处 语 境 , 其 优 
势 在 于 为 每 一 个 基本 的 训练 单元 都 提供 了 更 为 丰富 和 
准确 的 信息 ,以 此 达到 对 于 每 一 个 主题 及 其 出 现 的 词 
汇 进行 精准 描述 的 目的 。 以 material 为 例 , 在 传统 LDA 
模型 结果 中 , 仅 能 看 出 “材料 ”含义 ,词汇 所 含有 效 信 


榜 光 为 SAO 结构 ,增加 了 主题 信息 的 广度 和 深度 ,在 
上 写 程 度 上 改善 了 上 述 问题 ,但 专利 文本 作为 法 律 写 
法 结构 森严 且 语 言 史 涩 ,这 就 要 求 一 句 话 要 忽 来 
转 于 才能 说 明白 .不 留任 何 死角 。 而 SAO 作为 句子 层 
多 结 构 ,提取 关系 时 会 受 依存 句法 本 身 发 展 的 影响 ， 
押 了 效率 有 限 ,会 造成 “文档 - SAO 矩阵 "过 于 稀疏 以 
及 竟 档 间 词 共 现 对 过 少 ,遗漏 大 量 相关 信息 ,直接 影响 
哆 SMO 为 基础 的 LDA 模型 的 准确 性 。 

二 主题 模型 @ 主 要 结合 被 分 类 号 标 引 的 文档 信息 
进 得 主题 抽取 ,以 分 类 体系 中 的 每 一 个 节点 作为 主 
题 ' 腿 据 文档 内 容 所 属 分 类 号 (或 预先 设 定 一 个 文档 
只 属于 一 个 分 类 号 或 等 概率 抽取 文档 一 -分 类 号 ) ， 
来 虐 断 出 所 对 应 主题 下 的 词汇 概率 分 布 ,此 类 模型 
方法 虽 能 在 一 定 程度 避免 不 同 分 类 文本 中 同一 关键 
词 等 同 看 待 问题 ,有 助 于 提高 主题 辨识 度 ,但 在 主题 
抽取 过 程 中 训练 单元 依然 是 unigram( 单个 word) 结 
构 ,以 单词 上 的 概率 分 布 来 描绘 主题 内 容 依然 会 给 
解读 带 来 不 便 " 。 

为 解决 上 述 主题 辨识 度 低 、 可 解释 性 弱 以 及 文本 
主题 界限 划分 模糊 问题 ,本 文 根 据 专利 文本 特点 ,引入 
技术 词 所 在 文本 的 国际 专利 分 类 号 IPC 作为 其 所 处 的 
语 境 ,以 < 词 /词组 ,分 类 号 > WI( Word IPC) 二 元 组 的 
结构 进行 LDA 训练 ,在 主题 抽取 过 程 中 直接 引信 IPC， 
构建 Word IPCIDA 主题 模型 (简称 WI-LDA) ,以 期 减 
少 机 器 外 部 学 习 的 影响 ,实现 对 专利 技术 主题 的 有 效 
识别 与 分 析 。 


息 单 薄 ,具体 内 容 需 结 合 最 终 聚 类 结果 去 判读 ,为 主题 
的 判定 上 带 来 极 大 困扰 。 而 WI-LDA 事先 将 IPC 作为 
词 / 词 组 存在 的 语 境 中 引入 LDA 建 模 中 ,此 时 ,训练 词 
汇 的 基本 结构 单元 由 一 元 转化 为 二 元 ,其 广度 和 深度 
得 到 了 进一步 拓展 ,信息 包含 内 容 则 更 为 丰富 。 如 与 
HO01M 结合 的 material 偏重 于 用 在 电池 电极 上 的 材料 ， 
而 与 C08L 结合 更 多 指 的 是 用 于 制备 复合 材料 的 材料 。 
这 样 即使 是 同一 个 词 ,在 表征 主题 上 也 有 不 同 的 含义 ， 
此 时 模型 聚 类 的 原则 不 再 单纯 依赖 于 词 / 词 组 的 潜在 
语义 特征 ,还 考虑 到 词 / 词 组 所 处 的 技术 情景 ,只 有 拥 
有 相近 技术 情景 及 强 共 现 语义 特征 的 主题 词 才 会 最 大 
程度 地 隶属 在 同一 个 主题 下 。 

WI-LDA 主题 模型 核心 思想 是 一 篇 文章 的 每 一 个 
WI 词汇 都 是 通过 “以 一 定 的 概率 选择 了 某 个 主题 ,并 
且 这 个 主题 以 一 定 概 率 选 择 了 某 个 WI 词汇” ,具体 模 
型 如 图 1 所 示 : 


图 1 WI-LDA 主题 模型 


其 中 ,空心 圆圈 表示 隐 含 变量 ,实心 圆圈 便 是 可 观 
察 到 的 变量 , 即 WI 词汇 ,假定 专利 语料库 包含 D 篇 文 
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档 ,从 文档 中 抽取 基于 单词 的 词 /词组 及 其 所 在 文本 所 
属 IPC 作为 所 处 技术 语 境 , 构 造 WI 词汇 并 最 终 获 得 NN 
个 碘 , 形 成 DxN 的 文档 WI 和 矩阵 WIn ,该 矩阵 中 的 
每 个 元 素 WI 为 第 d 个 文档 中 第 n 个 WI 发 生 概 率 。 
语 料 共 包括 下 个 主题 Z= |z,z,z3,… ,24| ,中 ,为 第 k 
个 主题 的 WI 词汇 多 项 式 概率 分 布 ,对 于 Z 中 的 每 
个 有 ,生成 不 同 的 WI 的 概率 ,形成 一 个 KxN 阶 的 主 
题 WI 概率 矩阵 Bxw ,该 矩阵 中 的 每 一 个 元 素 中 ,为 第 
k 个 主题 中 第 n 个 W 的 概率 , 即 文档 中 的 每 一 个 WI 
都 可 以 看 作为 是 有 一 个 条 件 概率 分 布 p(WII®) 生 成 
的 。 主 题 的 产生 由 p(Z10,) 确 定 ,形成 的 是 一 个 DxK 
阶 文档 主题 矩阵 9, ,矩阵 中 分 布 着 的 每 一 个 元 素 代 
表 了 第 d 个 文档 生成 第 上 个 主题 x 的 概率 ,整个 过 程 
化 为 矩阵 则 表示 为 WInss = kss x bu。 

WILDA 模型 是 一 个 概率 生成 式 模型 ,其 中 一 篇 文 
当 的 生成 步骤 如 下 所 示 : 

于 每 个 文档 de DD ,根据 0, ~ Dir(a) 抽 样 ,得 
上 主题 的 多 项 式 分 布 参 数 0,; 

. 对 于 每 个 主题 ze ,根据 B, ~ Dir(B) 抽 样 ,得 

lz 上 WI 的 多 项 式 分 布 参 数 中 ,; 

. 对 于 文档 d 中 的 第 n 个 Wl, ,根据 多 项 分 布 z 
dGNL Multi (6,) ,抽样 所 属 主 题 z, ,根据 多 项 分 布 
Wi -Muli(@,) ,抽样 得 到 具体 WI ,词汇 。 

由 上 述 可 得 所 有 变量 的 联合 分 布 公式 为 : 
EP(WI,,21,04, Be,B) = Sp( WL, 1D )p(Z,! 
QB( 0941a)p( ,1B) 公式 (1) 
〇 在 WILDA 中 ,文本 的 WI 词汇 通过 构造 后 是 可 以 
观测 到 的 数据 ,而 文本 的 主题 是 隐 式 变量 ,根据 文本 的 
生成 规则 和 已 知 数据 ,WILDA 通过 概率 推导 可 以 求 得 
文本 的 主题 分 布 6 和 每 个 主题 的 WI 分 布 四 ,常用 的 推 
导 方 法 有 EM ( expectation maximization ) 、 变 分 贝 叶 斯 
(variational Bayesian ) 、Gibbs 抽样 ( Gibbs sampling ) 
等 "5 。 其 中 ,Gibbs 是 一 个 MCMC ( Markov chain Monte 
Carlo) 过 程 的 抽样 方法 ,相对 于 EM ,此 方法 更 易 实 现 ， 
日 计算 复杂 度 较 小 ,速度 和 结果 都 不 弱 于 前 两 种 方 
法 上 1 ,已 广泛 应 用 在 概率 生成 模型 中 , 故 本 文 参 考 文 
献 [18] 的 Gibbs 抽样 方法 进行 相关 参数 的 估计 。 


3 ”实证 研究 


石墨 烯 是 一 种 由 碳 原子 组 成 的 只 有 一 层 原 子 厚 度 
的 二 维 晶 体 ,具有 优异 的 电学 力学、 光学、 化 学 、 热 学 
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以 及 高 比 表面 积 等 特性 ,被 认为 是 “后 硅 时 代 ” 的 新 洪 
力 材料 ,应 用 前 景 广泛 。 石 墨 烯 作为 能 改变 中 国 未 来 
五 大 行业 之 一 的 新 材料 代表 “ ,在 我 国 备 受 关注 , 自 
2008 年 起 ,专利 申请 量 就 一 直 快 速 增长 ,现今 位 居 世 
界 首位 , 远 超 美国 和 其 他 亚 欧 国 家 ,在 世界 处 于 领先 地 
位 ” 。 此 背景 下 ,对 中 国 石墨 烯 专利 主题 分 析 可 以 明 
确 我 国 石墨 烯 技术 分 布 ,对 维持 国家 竞争 优势 .可 持续 
发 展 具 有 重要 意义 ,同时 对 整个 石墨 烯 行业 的 发 展 也 
具有 较 好 的 参考 意义 。 

3.1 数据 收集 

本 研究 选取 德 温 特 专利 数据 库 ( Derwent Innova- 
tion Index,DI) 中 的 中 国 石墨 烯 领域 专利 作为 数据 样 
本 ,数据 库 中 加 工 过 的 专利 标题 和 摘要 部 分 涵盖 了 原 
专利 的 主要 内 容 \ 方 法 .应 用 领域 .新 颖 性 等 多 方面 信 
息 ,其 描述 更 倾向 于 标准 化 和 可 解释 性 ,能 保证 在 提高 
技术 词 提 取 效 率 的 同时 使 专利 主题 词 抽取 结果 更 有 意 
义 “|。 在 文献 调研 和 专家 知识 的 基础 上 ,最 终 确定 以 
石墨 烯 英文 graphene 为 关键 词 , 以 “TI = (graphene or 
graphenes)and PN = (CN * ) "为 检索 式 进行 检索 ,时 
间 跨 度 为 2008 -2015 年 (检索 时 间 为 2017 年 7 月 )， 
对 数据 进行 处 理 和 筛选 后 共 获 取 专 利 9 021 件 ,从 中 
提取 专利 号 .标题 摘要、 国际 分 类 号 、 申 请 日 等 相关 信 
息 ,完成 数据 收集 。 

3.2 数据 预 处 理 

首先 对 专利 摘要 进行 文本 分 割 ,词性 标注 ,提取 专 
利 中 的 名 词 和 名 词 短语 ,同时 进行 去 品 处 理 ,主要 包 
括 : 单 复数 统一 ,同义词 合并 , 连 字 符 ”- ”的 使 用 ,全 
称 和 缩写 ,去 除 停 用 词 ( 如 a,for) .专利 描述 词 (如 com- 
prise ,involves ) .学 术 词 汇 ( 如 advantage,method ) 以 及 
一 些 本 实验 特有 的 、 出 现 频率 高 但 对 结果 没有 意义 的 
词语 (如 degree ,amount) ,以 保证 结果 的 客观 性 和 科学 
性 。 

在 提取 IPC 分 类 号 时 ,由 于 不 同 IPC 层级 可 能 会 
产生 不 同 的 聚 类 效果 , 故 本 文 分 别提 取 专 利 的 主 IPC 
大 类 小 类 和 大 组 进行 了 小 规模 的 文本 实验 ,实验 结果 
显示 基于 大 类 的 主题 词 划分 过 于 粗 泛 ,主题 聚 类 效果 
不 明显 ,基于 大 组 形成 的 文档 主题 词 矩 阵 过 于 稀 玻 , 同 
样 不 适合 进行 主题 训练 , 而 基于 小 类 的 主题 词 能 够 在 
主题 词 区 分 度 明 显 的 基础 上 保证 和 矩阵 规模 不 过 于 巨 
大 ,因而 最 终 选 定 以 主 分 类 号 小 类 作为 主题 词语 言 ' 
景 的 限定 。 为 了 过 程 的 简易 性 以 及 结果 展示 的 直观 
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性 ,本 文 对 石墨 烯 领域 所 涉及 的 IPC 小 类 进行 编码 , 主 
要 技术 领域 IPC 小 类 - 编码 分 布 见 表 1 。 

获取 文本 IPC 小 类 后 ,利用 Python 下 NLTK 工具 
包 ” 提取 专利 文本 中 的 技术 名 词 与 名 词 词组 ,将 IPC 
小 类 分 配 到 所 属 专 利文 本 中 的 名 词 / 名 词 词组 下 ,形成 
< 名 词 / 名 词 词组 , 主 IPC 小 类 > 二 元 组 结构 ,从 而 构 


造 WI 词汇 ,实现 每 一 篇 专利 文档 到 多 个 WI 二 元 结 
构 构 成 的 特征 向 量 的 转化 ,形成 领域 WI 词汇 训练 
集 。 
表 1 中 国 石墨 烯 主要 技术 领域 IPC 小 类 - 
编码 分 布 情况 (部 分 ) 
IPC 小 类 技术 领域 编号 


B82Y 纳米 结构 的 特定 用 途 测量 或 分 析 、 制 造 或 处 理 76 
™ 
SE91B 碳 ; 


其 化 合 物 77 

Raex 无 机 物 复合 材料 98 

Lop 涂料 组 合 物 101 

re 电容 器 196 

OF 半导体 器 件 199 

Gn M 电极 ;电池 组 200 
3 结果 分 析 


3GYI 模型 泛 化 能 力 效果 分 析 ”本 文 以 LDA 模型 为 
基线 ,对 比分 析 WILDA 模型 的 建 模 效果 。 其 中 ,数据 
建 硬 前 的 数据 预 处 理 部 分 与 上 述 处 理 基本 相似 ,不 再 
累 巴 。 通 过 语言 模型 标准 的 评价 函数 困惑 度 ( Perplex- 
ig 渤 21 值 的 大 小 来 评价 模型 的 泛 化 能 力 ,该 指标 能 
测 移 出 语 料 建 模 能 力 的 强 弱 ,困惑 度 越 小 ,表示 模型 的 
泛 化 能 力 越 强 。 其 表达 式 为 ， 

Perplexity(D。) =exp{- >)ilogp(w)/ YN 

公式 (2) 

对 比 主要 从 两 方面 对 WI-LDA 模型 的 泛 化 能 力 进 
行 评估 ,其 一 是 分 析 模 型 困惑 度 值 随 主题 数目 增加 的 
变化 情况 ,主要 是 通过 不 断 增 加 主题 数目 来 判断 出 模 
型 对 于 不 确定 数据 的 预测 能 力 。 其 二 是 分 析 困 惑 度 随 
观测 词汇 增加 的 变化 情况 , 主要 是 通过 已 训练 好 的 模 
型 ,随机 从 一 篇 训练 文档 抽取 N 个 词汇 ,并 随后 不 断 调 
整 N 的 大 小 ,再 次 训练 模型 ,观察 文档 的 困惑 度 值 的 变 
化 情况 。 

本 实验 参数 具体 设置 如 下 :alpha( document -topic 
associations ) =5 ,beta(topic -term associations ) = 0. 1 , 迭 


代 次 数 为 5 000 次 ,困惑 度 随 主题 数目 变化 情况 对 比 


结果 如 图 2 所 示 。 从 图 中 可 见 , 在 相同 主题 数量 的 情 
况 下 ,初始 WI-LDA 的 困惑 度 值 较 高 , 泛 化 能 力 较 弱 ， 
其 模型 效果 不 如 传统 的 LDA 模型 效果 ,但 模型 收敛 速 
度 很 快 ,在 其 后 迅速 下 降 , 远 低 于 传统 LDA 模型 的 困 
惑 度 值 , 此 时 WI-LDA 的 泛 化 能 力 要 明显 高 于 传统 
LDA 模型 ,当主 题 数目 高 于 40 时 ,WI-LDA 模型 的 困惑 
度 值 最 早 趋 于 稳定 ,而 LDA 模型 仍 在 下 降 ,表明 WI- 
LDA 收敛 的 速度 和 效果 都 较 好 。 


1050 一 一 WI-LDA 
1000 一 一 LDA 
950 

也 

径 ”900 

El 
850 
800 
750 
700 

5 10 15 20 25 30 35 40 45 50 
主题 数目 


图 2 困惑 度 随 主题 数目 变化 情况 


在 分 析 困 惑 度 随 观 测 词 汇 增加 的 变化 情况 时 以 主 
题 数量 为 40 时 的 主题 模型 作为 初始 的 训练 模型 ,通过 
对 单 篇 训练 文档 中 可 观察 词汇 进行 统计 后 表明 最 大 词 
汇 个 数 为 156 , 故 设 定 N 取 值 区 间 为 [1:156] ,为 确保 
获取 结果 的 稳定 ,对 所 有 训练 文档 进行 文档 困惑 度 计 
算 ,然后 以 其 均值 作为 在 该 N 值 下 困惑 度 ,最 终 得 到 困 
惑 度 值 随 N 值 的 变化 曲线 如 图 3 所 示 。 可 见 , 初 始 N 
较 小 时 ,两 种 模型 的 困惑 度 值 相差 无 几 ,词汇 的 主题 分 
布 效 果 没 有 明显 差别 ,而 随 着 N 值 的 增 大 ,WI-LDA 模 
型 的 困惑 度 值 低 于 相同 观察 数据 下 的 LDA 困惑 度 , 表 
明 此 时 WILDA 模型 在 词汇 的 主题 分 配 上 要 优 于 LDA 


模型 。 
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图 3 困惑 度 随 可 观测 词汇 数量 变化 情况 


3.3.2 专利 技术 主题 效果 分 析 ”为 分 析 WI-LDA 模 
型 在 技术 主题 分 析 上 的 效果 ,本 文 将 其 与 传统 LDA 技 
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术 主题 分 析 进行 比较 。 由 图 2 可 知 ,当主 题 数目 在 (5， ”概率 " ,结果 更 具有 代表 性 ,因而 本 文 将 石墨 烯 领域 主 
10) 之 间 时 ,两 种 模型 的 困惑 度 存 在 相等 的 情况 。 为 方 。 题 划分 为 8 类。 选取 每 个 主题 下 概率 排名 前 10 的 主 
便 对 比 两 种 模型 在 主题 分 析 上 的 效果 , 故 将 主题 模型 ” 题词 进行 分 析 来 确定 技术 主题 内 容 。 两 种 模型 下 主题 
数目 定义 在 该 范围 进行 划分 ,研究 发 现 当 两 者 主题 数 分布 如 表 2 所 示 : 
为 8 时 ,各 主题 技术 名 词 拥 有 较 好 区 分 度 和 相对 较 高 

表 2 两 种 主题 模型 下 中 国 石 墨 烯 技术 领域 主题 分 布 


模型 主题 内 容 


WI-LDA Topicl[ 石墨 烯 制备 ] :graphene-oxide77(0. 142 1) water77(0. 104 0) graphite77(0. 058 7) acid77(0.035 6) powder77(0. 034 2) oxide77(0.034 2) 
dispersion77(0. 034 0) solvent77(0.033 7) agent77(0.030 9) mixture77(0.015 7) 
Topic2[ 石墨 烯 薄膜 制备 ] :material77(0. 067 1) substrate77(0.052 3) fim7y7(0. 044 6) carbon77(0. 038 4) device77(0.033 2) layer77(0.032 0) 


gas77(0.027 9) metal77(0.022 6) surface77(0.011 4) reaction77(0.010 5) 


Topic3[ 石墨 烯 纳米 材料 制备 与 应 用 ] :material76(0. 054 1 ) graphene -oxide76(0. 052 2) carbon -nanotube76(0. 044 7) layer76 (0. 040 3) metal76 


(0.021 5) ion76(0.012 8) nano76(0.011 9) battery76(0.010 3) surface76(0. 008 7) substrate76(0.007 4) 


Topic4[ 石墨 烯 在 复合 材料 应 用 ] :polymerog(0.117 6) materialogs(0.067 8) rubberog (0. 047 6) agentog(0. 025 6) resinog(0.006 4) compositeog 


(0.005 2) graphene-oxideog (0.004 6) powderos(0.004 2) fiberog(0.004 1) fillerog(0.003 2) 


Topic5[ 石墨 烯 在 电池 电极 应 用 ] :materialy00(0.200 6) batteryy00(0. 107 8) lithium200(0. 074 0) ion200(0. 052 4) electrode200(0.033 2) cath- 


ode200( 0. 025 4) carbon200(0.020 3) compositezo00(0. 020 1 ) graphene -oxidey00(0.018 5) anode200(0.010 9 ) 


Topic6[ 石墨 烯 在 电容 器 应 用 ] :materiallo6(0. 126 7) electrodel96(0. 122 4) capacitorl96(0. 056 4) layerio6(0.050 8) fmi96(0. 047 4) graphene- 


oxide196(0. 024 6 ) carbon196(0. 009 1) layerio6(0.008 7) supercapacitorio6(0.005 6) sheetio96(0.004 4) 


Topic7[ 石墨 烯 在 半导体 器 件 应 用 ] :layeri99(0.083 3) electrodelo0(0. 064 1 ) substratel99(0.047 1) flmloo(0.042 4) deviceloo(0.041 5 ) sur- 


facel99(0.040 6) metalio9(0.037 3) graphene-layerio9(0.032 6) structure199(0.030 9) semiconductor1o9(0. 022 6) 


Topic8[ 石墨 烯 在 涂料 中 应 用 ] : agentiol (0. 095 4) resiniol (0. 062 8 ) coating1l01 (0. 057 9) powderio1 (0. 056 8 ) paintiol (0.055 4) solventiol 


(0.055 0) emulsion101(0.052 4) inkiol(0.045 7) waterproofi01(0.042 8) materialiol(0.034 9) 

DA Topicl :gas(0.078 2) reaction(0.056 4) copper(0.052 5) temperature (0.050 5) manufacture (0. 044 7) heating (0.037 9) deposition (0. 034 5) 
substrate( 0. 025 7) chemical(0.022 4) reduction(0.018 6) 
Topic2 :film (0. 145 6) substrate(0.104 2) surface(0.053 9) metal(0.032 8) electrode(0.032 2) graphene-film(0.028 5) transparent(0.028 4) ar- 
ea(0.025 6) silicon-carbide(0.018 7) foil(0.0117) 
Topic3 :water(0.063 5) acid(0.062 4) graphite(0. 057 4) substrate(0.052 2) graphene-oxide(0.032 9) mixture(0.022 1) sodium(0.008 4) sus- 


pension(0. 007 4) potassium(0.005 5) hydroxide(0.004 7) 
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Topic4 :graphene -oxide( 0.044 1) solvent(0.023 1) dispersion(0.015 6) liquid(0.009 2) catalyst(0.008 5) polymer(0.005 5) compound(0.003 6) 
cell(0.003 2) membrane(0. 002 4) substrate(0.001 8) 

Topic5 :material(0.047 2) battery (0.042 8) lithium(0.038 5) ion(0.028 2) cathode(0.021 6) iron(0.020 8) electrode(0.0177) nano(0.0149) 
precursor(0.012 6) composite(0.011 6) 

Topic6 :carbon (0. 100 5) electrode (0. 051 7) fiber(0. 048 2) sheet(0. 041 1) sensor(0. 032 7) particle (0. 025 7) nano (0. 025 4) capacitor 
(0.024 2) supercapacitor(0.016 7) range(0.013 6) 

Topic7 :layer( 0.079 4) structure(0.075 2) electrode(0.074 7) graphene-layer(0.062 9) source(0.051 8) semiconductor(0.050 2) field(0.049 3) 
medium (0.041 7) conduction(0.040 6) circuit(0.037 5) 

Topic8 :agent(0. 156 2) powder (0. 124 3) resin (0. 090 9) coating (0. 072 1) rubber(0. 053 6) oil(0. 026 7) polyethylene (0. 015 5 ) alcohol 
(0.015 2) filler(0.011 8) substrate(0.009 4) 


注 : 表 中 每 个 主题 词 中 “ 词 /词组 类 s ”代表 < 词 / 词 组 ,分 类 号 > 二 元 组 结构 词汇 


通过 两 种 模型 下 主题 结果 内 容 对 比 发 现 , WI-LDA ”模型 结果 有 明显 的 主题 情境 ,可 以 粗略 了 解 领域 中 主 
主题 模型 在 主题 分 析 效 果 上 相 比 传统 LDA 模型 有 了  ” 题 分 布 ,起 到 了 快速 了 解 主 题 内 容 \ 把 握 技 术 方 向 的 效 
较 好 的 改善 ,主要 体现 在 以 下 3 个 方面 : 果 。 其 次 ,从 局 部 关系 来 看 ,基于 单词 的 LDA 模型 结 

(1) 在 主题 辨识 度 上 ,WI-LDA 主题 模型 效果 优 于 果 中 ,部 分 主题 下 的 主题 词 存在 着 较 大 的 交叉 性 ,如 
基于 单词 的 LDA 模型 。 首 先 ,从 整体 上 来 看 , WI-LDA substrate ,electrode 等 单词 在 一 半 以 上 的 主题 中 都 有 出 
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现 ,对 主题 的 分 类 和 解释 造成 了 不 利 影响 。 而 WILDA 
主题 模型 则 不 易 出 现 此 类 问题 ,可 以 更 深入 了 解 主题 
词 内 涵 , 如 在 HO1M 下 materialyw 是 指 用 于 电池 电极 的 
材料 ,而 在 C08L 下 materials 更 多 体现 的 是 用 于 制备 复 
合 材料 的 材料 。 

(2) 在 主题 可 解释 性 上 ,WI-LDA 主题 模型 效果 优 
于 基于 单词 的 LDA 模型 。 以 两 种 方法 下 Topic5 的 内 
容 为 例 , 传 统 LDA 模型 结果 中 ,该 主题 下 的 主题 词 既 
有 与 复合 材料 有 关 的 nano composite 等 词 ,又 有 与 电池 
电极 有 极 大 联系 的 battery \lithium \ion .cathode 等 词 , 主 
题 则 可 能 存在 多 种 情景 :一 是 主题 为 复合 材料 ,电池 电 
极 只 是 其 应 用 方向 之 一 ,如 专利 CN104240792 -B 即 为 
一 种 高 氮 摊 杂 石墨 烯 和 超 薄 二 亚 基 纳 米 复合 材料 的 制 


CNI193985552-A 为 用 于 染料 敏 化 太阳 能 电池 的 过 渡 金 
广 化 物 石墨 烯 复合 电极 ,composite 是 用 来 修饰 电极 。 
过 起 直接 定义 为 石墨 烯 复合 材料 以 及 在 电池 上 的 应 
有 所以 上 情况 如 果 不 研读 专利 文本 只 靠 人 为 强制 定 
汉 夯 必 影 响 结果 的 客观 性 。 对 比 WI-LDA 主题 模型 


虽 义 问题 的 产生 ,类 别 标注 更 加 清晰 :石墨 烯 在 电池 


SC(3 ) 在 文本 主题 划分 上 ,由 于 WI-LDA 主题 模型 引 
入 0B 技 术 词 的 语言 情景 ,拥有 相同 语 境 的 文本 和 所 属 


题 才 会 对 应 着 较 高 的 文本 主题 概率 ,与 传统 LDA 模 
型 突 本 主题 分 布 概率 较为 平均 的 情况 相 比 ,文本 主题 
概 票 之 间 的 距离 理应 会 更 大 ,划分 层次 也 更 加 清晰 。 
为 有 效 评估 两 种 模型 下 文本 主题 概率 的 区 分 度 , 本 文 
定义 了 文本 主题 概率 平均 距离 度量 指标 ,计算 公式 如 
下 : 

Dis= 37 1{[ StlP; (1/K)1J/AKYN 公式 (3) 

式 中 ,Dis 为 模型 下 文本 主题 概率 平均 距离 ,代表 
的 是 概率 值 之 间 差异 。N 为 文本 数量 ,K 为 主题 数目 ， 
P, 为 各 主题 隶属 文本 的 概率 。 由 公式 可 知 ,Dis 值 越 
大 ,文本 主题 划分 越 清晰 , 主题 模型 效果 越 好 。 反 之 ， 
文本 划分 就 越 模糊 。 
通过 上 述 公 式 ,对 两 种 模型 下 文本 主题 概率 平均 
距离 进行 计算 ,传统 LDA 模型 训练 后 的 文本 主题 概率 
平均 距离 Dis 为 0.011 7,WI-LDA 模型 概率 距离 Dis 为 
0.022 4, 约 为 传统 LDA 距离 的 两 倍 ,因而 WI-LDA 模 
型 在 文本 主题 划分 上 更 有 优势 ,效果 更 加 显著 。 


针对 目前 多 数 主题 模型 分 析 专 利 技术 主 题 存 在 主 
题 辨 识 度 和 可 解释 性 低 .文本 划分 模糊 的 不 足 ,笔者 根 
据 专 利文 本 的 特点 ,引入 IPC 作为 技术 词 所 属 情景 , 提 
出 了 一 种 基于 WI 词汇 的 LDA 主题 模型 ,以 < 词 / 词 
组 ,分 类 号 > WI( Word IPC) 二 元 组 结构 词汇 来 识别 主 
题 内 容 。 案 例 研究 证 明了 基于 WI-LDA 的 主题 模型 的 
有 效 性 , 相 比 传统 基于 单词 的 LDA 主题 模型 ,本 模型 
泛 化 能 力 较 强 ,在 主题 分 析 上 降低 了 同化 主题 辨识 的 
难度 增加 了 主题 的 可 读 性 与 解释 性 及 提高 聚 类 效果 ， 
有 利于 明确 主题 方向 ,有 助 于 后 续 的 主题 分 析 和 决策 ， 
文本 主题 划分 也 更 明晰 。 

本 文 也 注意 到 该 方法 可 能 面临 的 一 些 不 足 之 处 ， 
如 引入 IPC 后 的 主题 词 会 造成 矩阵 过 大 、 模 型 空间 维 


度 剧 增 问题 。 如 何在 提高 聚 类 主题 效果 的 基础 上 ,更 

好 地 兼顾 上 述 问题 是 未 来 笔者 将 继续 完善 的 方向 。 
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WI-LDA : Technical Topic Analysis in Patents 
Wu Hong Yi Huifang Ma Yongxin Li Chang 
Science and Technology Information Research Institute, Shandong University of Technology, Zibo 255049 


Abstract， [Purpose/significance | It is of great significance to improve the existing problems of technical topic a- 
nalysis in patents based on the LDA, which are low recognition, weak interpretability and fuzzy boundary division ,to hold 
théechnical hot spots and track the technological frontier. [ Method/process | The international patent classification is 


intfoduced into the topic analysis in patents based on the LDA, and used as the language content of technical terms. The 


safeiure of WI (Word IPC) < word, classification number > is trained to construct the WI-LDA model to achieve the i- 
dentification and analysis of the subject of patent documents. [ Result/conclusion | The case study of graphene field in 
Chinese patents and comparative study with traditional LDA models prove that the generalization ability of the WI-LDA 
model is strong, and the WI-LDA model can effectively reduce the difficulty of identification technical topic analysis in pa- 
tents, increase the interpretability of topics and make the topic classification clearer. 


Keywords: WI-LDA topic model technical topic in patents graphene 
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